As an important variant of entity alignment (EA), multi-modal entity alignment (MMEA) aims to discover identical entities across different knowledge graphs (KGs) with multiple modalities like images. However, current MMEA algorithms all adopt KG-level modality fusion strategies but ignore modality differences among individual entities, hurting the robustness to potential noise involved in modalities (e.g., unidentifiable images and relations). In this paper we present MEAformer, a multi-modal entity alignment transformer approach for meta modality hybrid, to dynamically predict the mutual correlation coefficients among modalities for instance-level feature fusion. A modal-aware hard entity replay strategy is also proposed for addressing vague entity details. Extensive experimental results show that our model not only achieves SOTA performance on multiple training scenarios including supervised, unsupervised, iterative, and low resource, but also has limited parameters, optimistic speed, and good interpretability. Our code will be available soon.
translated by 谷歌翻译
In knowledge graph completion (KGC), predicting triples involving emerging entities and/or relations, which are unseen when the KG embeddings are learned, has become a critical challenge. Subgraph reasoning with message passing is a promising and popular solution. Some recent methods have achieved good performance, but they (i) usually can only predict triples involving unseen entities alone, failing to address more realistic fully inductive situations with both unseen entities and unseen relations, and (ii) often conduct message passing over the entities with the relation patterns not fully utilized. In this study, we propose a new method named RMPI which uses a novel Relational Message Passing network for fully Inductive KGC. It passes messages directly between relations to make full use of the relation patterns for subgraph reasoning with new techniques on graph transformation, graph pruning, relation-aware neighborhood attention, addressing empty subgraphs, etc., and can utilize the relation semantics defined in the ontological schema of KG. Extensive evaluation on multiple benchmarks has shown the effectiveness of techniques involved in RMPI and its better performance compared with the existing methods that support fully inductive KGC. RMPI is also comparable to the state-of-the-art partially inductive KGC methods with very promising results achieved. Our codes and data are available at https://github.com/zjukg/RMPI.
translated by 谷歌翻译
我们在ISWC 2022上对知识图模型的知识形象人群提出了一个用于语言模型的系统,该系统对知识库构建(LM-KBC)挑战进行了评估。我们的系统涉及特定于任务的预培训以改善蒙版的LM表示。对象令牌,促使分解候选对象以及其他高质量检索的方法。我们的系统是基于BERT LM的LM-KBC挑战赛曲目1的获胜者;它在挑战的隐藏测试集中获得了55.0%的F-1得分。
translated by 谷歌翻译
基于多模式方面的情感分类(MABSC)是一项新兴的分类任务,旨在将给定目标的情感分类,例如具有不同模式的数据中提到的实体。在带有文本和图像的典型多模式数据中,以前的方法不能充分利用图像的细颗粒语义,尤其是与文本的语义结合在一起,并且不完全考虑对细粒图像之间的关系进行建模信息和目标,这导致图像的使用不足和不足以识别细粒度的方面和意见。为了应对这些局限性,我们提出了一个新的框架SEQCSG,包括一种构建顺序跨模式语义图和编码器模型的方法。具体而言,我们从原始图像,图像标题和场景图中提取细粒度的信息,并将它们视为跨模式语义图的元素以及文本的令牌。跨模式语义图表示为具有多模式可见矩阵的序列,指示元素之间的关系。为了有效地利用跨模式语义图,我们建议使用目标提示模板的编码器解码器方法。实验结果表明,我们的方法优于现有方法,并在两个标准数据集MABSC上实现了最新方法。进一步的分析证明了每个组件的有效性,我们的模型可以隐含地学习图像的目标和细粒度信息之间的相关性。
translated by 谷歌翻译
关于日常概念的常识知识是AI应用程序的重要资产,例如问答和聊天机器人。最近,我们发现对结构化常识性知识库(CSKB)的构建越来越兴趣。人类常识的重要部分是关于不适用于概念的属性,而现有的CSKB仅存储正面陈述。此外,由于CSKB在开放世界的假设下运行,因此缺乏陈述被认为具有未知的真理,而不是无效。本文介绍了实现信息丰富的负相感陈述的不常见框架。给定目标概念,在CSKB中确定了可比较的概念,为此假定局部封闭世界的假设。这样,关于目标概念不存在的可比较概念的积极陈述成为负面陈述候选人的种子。然后,通过信息性审查,修剪和排名大量候选人。内在和外在评估表明,我们的方法明显优于最先进的方法。大量的信息否定数据集被释放为未来研究的资源。
translated by 谷歌翻译
视觉问题回答(VQA)通常需要对视觉概念和语言语义的理解,这取决于外部知识。大多数现有方法利用了预训练的语言模型或/和非结构化文本,但是这些资源中的知识通常不完整且嘈杂。有些方法更喜欢使用经常具有强化结构知识的知识图(kgs),但是研究仍然相当初步。在本文中,我们提出了Lako,这是一种知识驱动的VQA方法,通过后期的文本注射。为了有效地纳入外部kg,我们将三元三元转移到文本中,并提出一种晚期注射机制。最后,我们将VQA作为文本生成任务,并具有有效的编码器范式。在使用OKVQA数据集的评估中,我们的方法可实现最新的结果。
translated by 谷歌翻译
零击学习(ZSL)旨在预测看不见的课程,其样本在培训期间从未出现过,经常利用其他语义信息(又称侧信息)来桥接培训(见过)课程和看不见的课程。用于零拍图像分类的最有效且最广泛使用的语义信息之一是属性,是类级视觉特征的注释。但是,由于细粒度的注释短缺,属性不平衡和同时出现,当前方法通常无法区分图像之间的那些微妙的视觉区别,从而限制了它们的性能。在本文中,我们提出了一种名为Duet的基于变压器的端到端ZSL方法,该方法通过自我监督的多模式学习范式从审前的语言模型(PLM)中整合了潜在的语义知识。具体而言,我们(1)开发了一个跨模式的语义接地网络,以研究模型从图像中解开语义属性的能力,(2)应用了属性级的对比度学习策略,以进一步增强模型对细粒视觉特征的歧视反对属性的共同出现和不平衡,(3)提出了一个多任务学习策略,用于考虑多模型目标。通过对三个标准ZSL基准测试和配备ZSL基准的知识图进行广泛的实验,我们发现二重奏通常可以实现最新的性能,其组件是有效的,并且其预测是可以解释的。
translated by 谷歌翻译
知识图(kg)及其本体论的变体已被广泛用于知识表示,并且已证明在增强零拍学习(ZSL)方面非常有效。但是,利用KGS的现有ZSL方法都忽略了KGS中代表的类间关系的内在复杂性。一个典型的功能是,一类通常与不同语义方面的其他类别有关。在本文中,我们专注于增强ZSL的本体,并建议学习以本体论属性为指导的解剖本体嵌入,以捕获和利用不同方面的更细粒度的类关系。我们还贡献了一个名为dozsl的新ZSL框架,该框架包含两个新的ZSL解决方案,分别基于生成模型和图形传播模型有效地利用了分解的本体学嵌入。已经对零摄像图分类(ZS-IMGC)和零射Hot KG完成(ZS-KGC)进行了五个基准测试进行了广泛的评估。 Dozsl通常比最先进的表现更好,并且通过消融研究和案例研究证实了其组成部分。我们的代码和数据集可在https://github.com/zjukg/dozsl上找到。
translated by 谷歌翻译
关于现实生活知识图(KGS)的多跳上推理是一个高度挑战的问题,因为传统的子图匹配方法无法处理噪音和缺失信息。为了解决这个问题,最近已经引入了一种有希望的方法,该方法基于将逻辑查询和kgs共同嵌入到一个低维空间中以识别答案实体。但是,现有的提案忽略了KGS中固有可用的关键语义知识,例如类型信息。为了利用类型信息,我们提出了一种新颖的类型感知消息传递(TEMP)模型,该模型可以增强查询中的实体和关系表示形式,并同时改善概括,演绎和归纳推理。值得注意的是,Temp是一种插件模型,可以轻松地将其纳入现有的基于嵌入的模型中以提高其性能。在三个现实世界数据集上进行了广泛的实验证明了温度的有效性。
translated by 谷歌翻译
旨在从非结构化文本中提取结构信息的知识提取(KE)通常会遭受数据稀缺性和新出现的看不见类型,即低资源场景。许多低资源KE的神经方法已广泛研究并取得了令人印象深刻的表现。在本文中,我们在低资源场景中介绍了对KE的文献综述,并将现有作品分为三个范式:(1)利用更高的资源数据,(2)利用更强的模型,(3)利用数据和模型一起。此外,我们描述了有前途的应用,并概述了未来研究的一些潜在方向。我们希望我们的调查能够帮助学术和工业界更好地理解这一领域,激发更多的想法并提高更广泛的应用。
translated by 谷歌翻译